当前位置: 开发笔记 > 编程语言 > 正文

尾花|花萼_相关性Correlations皮尔逊相关系数（pearson）和斯皮尔曼等级相关系数（spearman）

作者：我爱看电视OK | 来源：互联网 | 2024-12-19 11:28

篇首语：本文由编程笔记#小编为大家整理，主要介绍了相关性Correlations 皮尔逊相关系数（pearson）和斯皮尔曼等级相关系数（spearman）相关的知识，希望对你有一定的参考价值。相关

篇首语：本文由编程笔记#小编为大家整理，主要介绍了相关性Correlations 皮尔逊相关系数（pearson）和斯皮尔曼等级相关系数（spearman）相关的知识，希望对你有一定的参考价值。

相关性Correlations

Correlations&＃xff0c;相关度量&＃xff0c;目前Spark支持两种相关性系数&＃xff1a;皮尔逊相关系数&＃xff08;pearson&＃xff09;和斯皮尔曼等级相关系数&＃xff08;spearman&＃xff09;。相关系数是用以反映变量之间相关关系密切程度的统计指标。简单的来说就是相关系数绝对值越大&＃xff08;值越接近1或者-1&＃xff09;, 当取值为0表示不相关&＃xff0c;取值为(0~-1]表示负相关&＃xff0c;取值为(0, 1]表示正相关。
Pearson相关系数表达的是两个数值变量的线性相关性, 它一般适用于正态分布。其取值范围是[-1, 1], 当取值为0表示不相关&＃xff0c; 取值为[-1~0)表示负相关&＃xff0c;取值为(0, 1]表示正相关。

公式

Spearman相关系数也用来表达两个变量的相关性&＃xff0c;但是它没有Pearson相关系数对变量的分布要求那么严格&＃xff0c; 另外Spearman相关系数可以更好地用于测度变量的排序关系。其计算公式为&＃xff1a;

公式

根据输入类型的不同&＃xff0c;输出的结果也产生相应的变化。如果输入的是两个RDD[Double]&＃xff0c;则输出的是一个double类型的结果&＃xff1b;
如果输入的是一个RDD[Vector]&＃xff0c;则对应的输出的是一个相关系数矩阵。具体操作如下所示&＃xff1a;
接下来我们先从数据集中获取两个series&＃xff0c;这两个series要求必须数量相同&＃xff0c;这里我们取莺尾花的前两个属性&＃xff1a;
然后&＃xff0c;我们调用Statistics包中的corr()函数来获取相关性&＃xff0c;这里用的是"pearson" 皮尔逊&＃xff0c;当然根据不同需要也可以选择"spearman" 斯皮尔曼等级&＃xff1a;
上面介绍了求两个series的相关性&＃xff0c;接下来介绍一下如何求 [相关系数矩阵]。
方法是类似的&＃xff0c;首先还是先从数据集中获取一个RDD[Vector]&＃xff0c;为了进行对照&＃xff0c;我们同样选择前两个属性&＃xff1a;
我们调用Statistics包中的corr()函数&＃xff0c;这里也同样可以选择"pearson"或者"spearman"&＃xff0c;得到相关系数矩阵&＃xff1a;默认使用皮尔逊

package basicstatistics import org.apache.log4j.Level, Logger import org.apache.spark.SparkContext import org.apache.spark.mllib.linalg import org.apache.spark.mllib.linalg.Matrix, Vectors import org.apache.spark.mllib.stat.Statistics import org.apache.spark.rdd.RDD /** * * 相关性Correlations * * Correlations&＃xff0c;相关度量&＃xff0c;目前Spark支持两种相关性系数&＃xff1a;皮尔逊相关系数&＃xff08;pearson&＃xff09;和斯皮尔曼等级相关系数&＃xff08;spearman&＃xff09;。 * 相关系数是用以反映变量之间相关关系密切程度的统计指标。简单的来说就是相关系数绝对值越大&＃xff08;值越接近1或者-1&＃xff09;, * 当取值为0表示不相关&＃xff0c;取值为(0~-1]表示负相关&＃xff0c;取值为(0, 1]表示正相关。 * Pearson相关系数表达的是两个数值变量的线性相关性, 它一般适用于正态分布。其取值范围是[-1, 1], 当取值为0表示不相关&＃xff0c; * 取值为[-1~0)表示负相关&＃xff0c;取值为(0, 1]表示正相关。 * * 公式 http://mocom.xmu.edu.cn/blog/58482eb8e083c990247075aa.png * * Spearman相关系数也用来表达两个变量的相关性&＃xff0c;但是它没有Pearson相关系数对变量的分布要求那么严格&＃xff0c; * 另外Spearman相关系数可以更好地用于测度变量的排序关系。其计算公式为&＃xff1a; * * 公式 http://mocom.xmu.edu.cn/blog/58482eb3e083c990247075a9.png */ object CorrelationsDemo def main(args: Array[String]): Unit &＃61; Logger.getLogger("org").setLevel(Level.ERROR) val sc &＃61; new SparkContext("local[*]", "") /** * 根据输入类型的不同&＃xff0c;输出的结果也产生相应的变化。如果输入的是两个RDD[Double]&＃xff0c;则输出的是一个double类型的结果&＃xff1b; * 如果输入的是一个RDD[Vector]&＃xff0c;则对应的输出的是一个相关系数矩阵。具体操作如下所示&＃xff1a; */ // 接下来我们先从数据集中获取两个series&＃xff0c;这两个series要求必须数量相同&＃xff0c;这里我们取莺尾花的前两个属性&＃xff1a; val seriesX: RDD[Double] &＃61; sc.textFile("/home/rjxy/IdeaProjects/spark/spark_mllib_course/src/main/resources/data/iris.data") .map(_.split(",")).map(p &＃61;> p(0).toDouble) val seriesY: RDD[Double] &＃61; sc.textFile("/home/rjxy/IdeaProjects/spark/spark_mllib_course/src/main/resources/data/iris.data") .map(_.split(",")).map(p &＃61;> p(1).toDouble) // 然后&＃xff0c;我们调用Statistics包中的corr()函数来获取相关性&＃xff0c;这里用的是"pearson" 皮尔逊&＃xff0c;当然根据不同需要也可以选择"spearman" 斯皮尔曼等级&＃xff1a; val seriesCorrelation: Double &＃61; Statistics.corr(seriesX, seriesY, "pearson") println(seriesCorrelation&＃43;" double") //-0.1594565184858299 spearman //-0.10936924995064387 pearson 说明数据集的前两列&＃xff0c;即花萼长度和花萼宽度具有微小的负相关性。 // 上面介绍了求两个series的相关性&＃xff0c;接下来介绍一下如何求 [相关系数矩阵]。 // 方法是类似的&＃xff0c;首先还是先从数据集中获取一个RDD[Vector]&＃xff0c;为了进行对照&＃xff0c;我们同样选择前两个属性&＃xff1a; val data: RDD[linalg.Vector] &＃61; sc.textFile("/home/rjxy/IdeaProjects/spark/spark_mllib_course/src/main/resources/data/iris.data") .map(_.split(",")).map(p &＃61;> Vectors.dense(p(0).toDouble, p(1).toDouble)) //我们调用Statistics包中的corr()函数&＃xff0c;这里也同样可以选择"pearson"或者"spearman"&＃xff0c;得到相关系数矩阵&＃xff1a; //默认使用皮尔逊 val dataCorrelation: Matrix &＃61; Statistics.corr(data) println(dataCorrelation&＃43;"矩阵")

阅读世界，共赴山海

423全民读书节，邀你共读

推荐阅读

byte
Flex 截图实例

Flex 截图实例 ... [详细]

蜡笔小新 2024-12-07 09:41:51
case
Akka BackoffSupervisor的深入解析与实践

本文详细介绍了Akka中的BackoffSupervisor机制，探讨其在处理持久化失败和Actor重启时的应用。通过具体示例，展示了如何配置和使用BackoffSupervisor以实现更细粒度的异常处理。 ... [详细]

蜡笔小新 2024-12-27 15:04:09
case
编写有趣的VBScript恶作剧脚本

本文将介绍如何编写一些有趣的VBScript脚本，这些脚本可以在朋友之间进行无害的恶作剧。通过简单的代码示例，帮助您了解VBScript的基本语法和功能。 ... [详细]

蜡笔小新 2024-12-28 09:46:23
runtime
Python 的 10 个开发技巧！太实用了

1.如何在运行状态查看源代码？查看函数的源代码，我们通常会使用IDE来完成。比如在PyCharm中，你可以Ctrl+鼠标点击进入函数的源代码。那如果没有IDE呢？当我们想使用一个函 ... [详细]

蜡笔小新 2024-12-27 18:36:54
scala
集成Spark Streaming与Flume：V1.4.1实践指南

本文详细介绍了如何配置Apache Flume与Spark Streaming，实现高效的数据传输。文中提供了两种集成方案，旨在帮助用户根据具体需求选择最合适的配置方法。 ... [详细]

蜡笔小新 2024-12-13 15:12:31
scala
SparkSQL 中 DataFrame 的构建方法

本文详细探讨了如何在 SparkSQL 中创建 DataFrame，涵盖了从基本概念到具体实践的各种方法。作为持续学习的一部分，本文将持续更新以提供最新信息。 ... [详细]

蜡笔小新 2024-12-10 18:55:21
scala
深入理解Scala中的单例模式及其实现

本文详细探讨了Scala中单例模式的实现方式，通过关键字object来模拟其他语言中的静态成员功能，同时介绍了伴生对象的概念及其应用场景。 ... [详细]

蜡笔小新 2024-12-04 11:37:12
rsa
Transforming the Future of Virtual Worlds

Explore how Matterverse is redefining the metaverse experience, creating immersive and meaningful virtual environments that foster genuine connections and economic opportunities. ... [详细]

蜡笔小新 2024-12-28 09:44:49
case
使用Objective-C和dispatch库实现并发素数计算

本文介绍如何使用Objective-C结合dispatch库进行并发编程，以提高素数计数任务的效率。通过对比纯C代码与引入并发机制后的代码，展示dispatch库的强大功能。 ... [详细]

蜡笔小新 2024-12-28 08:44:35
case
java编写的简易计算器

主要用了2个类来实现的，话不多说，直接看运行结果，然后在奉上源代码1.Index.javaimportjava.awt.Color;im ... [详细]

蜡笔小新 2024-12-27 18:18:10
window
分页插件3指定到某一页

前言--页数多了以后需要指定到某一页（只做了功能，样式没有细调）html ... [详细]

蜡笔小新 2024-12-27 15:19:01
python
Python自动化处理：从Word文档提取内容并生成带水印的PDF

本文介绍如何利用Python实现从特定网站下载Word文档，去除水印并添加自定义水印，最终将文档转换为PDF格式。该方法适用于批量处理和自动化需求。 ... [详细]

蜡笔小新 2024-12-27 13:10:20
python
Android LED 数字字体的应用与实现

本文介绍了一种适用于 Android 应用的 LED 数字字体（digital font），并详细描述了其在 UI 设计中的应用场景及其实现方法。这种字体常用于视频、广告倒计时等场景，能够增强视觉效果。 ... [详细]

蜡笔小新 2024-12-27 10:34:22
byte
深入理解Python的os和sys模块

本文详细解析了Python中的os和sys模块，介绍了它们的功能、常用方法及其在实际编程中的应用。 ... [详细]

蜡笔小新 2024-12-26 22:04:19
runtime
深入理解Play Framework 1.2.7中的缓存机制

本文探讨了Play Framework 1.2.7版本中提供的缓存解决方案，包括Ehcache和Memcached的集成与使用。文章详细介绍了缓存相关的类及其功能，以及如何通过配置选择合适的缓存实现。 ... [详细]

蜡笔小新 2024-12-01 16:36:27

我爱看电视OK

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章